Cơ sở dữ liệu là gì? Các công bố khoa học về Cơ sở dữ liệu
Cơ sở dữ liệu là một tập hợp có tổ chức các dữ liệu liên quan, được lưu trữ và quản lý trên một hệ thống máy tính hoặc trong một kho lưu trữ dữ liệu. Cấu trúc c...
Cơ sở dữ liệu là một tập hợp có tổ chức các dữ liệu liên quan, được lưu trữ và quản lý trên một hệ thống máy tính hoặc trong một kho lưu trữ dữ liệu. Cấu trúc cơ sở dữ liệu giúp tổ chức, lưu trữ và truy xuất dữ liệu một cách hiệu quả. Cơ sở dữ liệu có thể dùng để lưu trữ thông tin về sản phẩm, khách hàng, nhân viên, giao dịch, và nhiều loại dữ liệu khác.
Cơ sở dữ liệu là một hệ thống tổ chức và lưu trữ dữ liệu theo một cấu trúc nhất định, cho phép truy xuất, cập nhật và quản lý dữ liệu một cách hiệu quả. Cơ sở dữ liệu được sử dụng trong hầu hết các ứng dụng ngành công nghiệp và doanh nghiệp, từ hệ thống quản lý khách hàng, quản lý sản phẩm, quản lý nhân viên đến hệ thống giao dịch và hệ thống kế toán.
Cơ sở dữ liệu bao gồm các thành phần sau:
1. Bảng (Table): Là đơn vị lưu trữ dữ liệu cơ bản và bao gồm hàng (record) và cột (field). Mỗi hàng trong bảng thể hiện một dòng dữ liệu và mỗi cột thể hiện một thuộc tính hoặc trường dữ liệu.
2. Các quan hệ (Relationships): Khi có nhiều bảng trong một cơ sở dữ liệu, các quan hệ được thiết lập để kết nối các bảng với nhau dựa trên các khóa chính (primary key) và khóa ngoại (foreign key). Quan hệ này giúp cho việc truy xuất và truy vấn dữ liệu giữa các bảng trở nên dễ dàng và linh hoạt.
3. Index (Chỉ mục): Chỉ mục được sử dụng để cải thiện hiệu suất truy xuất dữ liệu. Chúng giúp tìm kiếm và sắp xếp dữ liệu một cách nhanh chóng bằng cách tạo ra một danh sách cấu trúc của các giá trị dữ liệu quan trọng.
4. Truy vấn (Query): Truy vấn là công cụ để truy xuất, lọc và xử lý dữ liệu trong cơ sở dữ liệu theo các tiêu chí và yêu cầu cụ thể. Truy vấn giúp lấy dữ liệu từ một hoặc nhiều bảng, tính toán, tổng hợp dữ liệu và cập nhật dữ liệu trong cơ sở dữ liệu.
5. Hệ quản trị cơ sở dữ liệu (DBMS): Là phần mềm được sử dụng để quản lý và điều khiển cơ sở dữ liệu. DBMS giúp tạo cơ sở dữ liệu, tạo, sửa đổi và xóa dữ liệu, quản lý quyền truy cập, và hỗ trợ các tính năng bảo mật dữ liệu.
Cơ sở dữ liệu là một phần quan trọng trong hệ thống thông tin, cho phép lưu trữ và truy xuất dữ liệu một cách hiệu quả, từ đó hỗ trợ quá trình ra quyết định, tối ưu hóa hoạt động kinh doanh và phục vụ khách hàng tốt hơn.
Danh sách công bố khoa học về chủ đề "cơ sở dữ liệu":
Các dự án giải trình tự DNA thế hệ tiếp theo (NGS), chẳng hạn như Dự án Bộ Gen 1000, đã và đang cách mạng hóa sự hiểu biết của chúng ta về sự biến dị di truyền giữa các cá nhân. Tuy nhiên, các tập dữ liệu khổng lồ được tạo ra bởi NGS—chỉ riêng dự án thí điểm Bộ Gen 1000 đã bao gồm gần năm terabase—làm cho việc viết các công cụ phân tích giàu tính năng, hiệu quả và đáng tin cậy trở nên khó khăn ngay cả đối với những cá nhân có kiến thức tính toán phức tạp. Thực tế, nhiều chuyên gia gặp phải giới hạn về quy mô và sự dễ dàng trong việc trả lời các câu hỏi khoa học bởi sự phức tạp trong việc truy cập và xử lý dữ liệu do những máy này tạo ra. Trong bài báo này, chúng tôi thảo luận về Bộ công cụ Phân tích Bộ Gen (GATK) của chúng tôi, một khung lập trình có cấu trúc được thiết kế để tạo điều kiện thuận lợi cho sự phát triển của các công cụ phân tích hiệu quả và đáng tin cậy dành cho các máy giải trình tự DNA thế hệ tiếp theo sử dụng triết lý lập trình hàm MapReduce. GATK cung cấp một bộ mẫu truy cập dữ liệu nhỏ nhưng phong phú, bao trùm hầu hết các nhu cầu của công cụ phân tích. Việc tách biệt các tính toán phân tích cụ thể khỏi hạ tầng quản lý dữ liệu chung cho phép chúng tôi tối ưu hóa khung GATK về độ chính xác, độ ổn định, và hiệu quả CPU và bộ nhớ, cũng như cho phép phân giải song song bộ nhớ chia sẻ và phân tán. Chúng tôi nhấn mạnh các khả năng của GATK bằng cách mô tả việc triển khai và ứng dụng các công cụ đáng tin cậy và dung nạp quy mô như máy tính phủ và gọi đa hình đơn nucleotide (SNP). Chúng tôi kết luận rằng khung lập trình GATK cho phép các nhà phát triển và nhà phân tích nhanh chóng và dễ dàng viết các công cụ NGS hiệu quả và đáng tin cậy, nhiều công cụ trong số đó đã được tích hợp vào các dự án giải trình tự quy mô lớn như Dự án Bộ Gen 1000 và Atlas Bộ Gen Ung thư.
Dữ liệu nhiều chiều có thể được chuyển đổi thành các mã thấp chiều bằng cách huấn luyện một mạng nơ-ron đa lớp với lớp trung tâm nhỏ để tái tạo các vector đầu vào nhiều chiều. Phương pháp giảm gradient có thể được sử dụng để tinh chỉnh các trọng số trong các mạng 'autoencoder' như vậy, nhưng điều này chỉ hoạt động tốt nếu các trọng số ban đầu gần với một giải pháp tốt. Chúng tôi mô tả một phương pháp hiệu quả để khởi tạo các trọng số cho phép các mạng autoencoder sâu học các mã thấp chiều hoạt động tốt hơn nhiều so với phân tích thành phần chính như một công cụ để giảm kích thước dữ liệu.
Trong bối cảnh quản lý, lập trình toán học thường được sử dụng để đánh giá một tập hợp các phương án hành động thay thế có thể, nhằm lựa chọn một phương án tốt nhất. Trong khả năng này, lập trình toán học phục vụ như một công cụ hỗ trợ lập kế hoạch quản lý. Phân tích Bao hàm Dữ liệu (DEA) đảo ngược vai trò này và sử dụng lập trình toán học để đánh giá ex post facto hiệu quả tương đối của các thành tựu quản lý, dù chúng được lập kế hoạch hoặc thực hiện như thế nào. Lập trình toán học do đó được mở rộng để sử dụng như một công cụ kiểm soát và đánh giá các thành tựu quá khứ cũng như công cụ hỗ trợ lập kế hoạch cho hoạt động tương lai. Hình thức tỷ lệ CCR được giới thiệu bởi Charnes, Cooper và Rhodes, như một phần của cách tiếp cận Phân tích Bao hàm Dữ liệu, bao hàm cả sự không hiệu quả về kỹ thuật và quy mô thông qua giá trị tối ưu của hình thức tỷ lệ, được thu được trực tiếp từ dữ liệu mà không cần yêu cầu định trước các trọng số và/hoặc phân định rõ ràng các dạng chức năng giả định của mối quan hệ giữa đầu vào và đầu ra. Một sự tách biệt giữa hiệu quả kỹ thuật và hiệu quả quy mô được thực hiện bởi các phương pháp phát triển trong bài báo này mà không làm thay đổi các điều kiện sử dụng DEA trực tiếp trên dữ liệu quan sát. Sự không hiệu quả về kỹ thuật được xác định bởi sự thất bại trong việc đạt được các mức đầu ra tốt nhất có thể và/hoặc việc sử dụng quá nhiều lượng đầu vào. Các phương pháp để xác định và điều chỉnh phạm vi của những sự không hiệu quả này, được cung cấp trong các công trình trước, được minh họa. Trong bài báo hiện tại, một biến mới được giới thiệu, cho phép xác định liệu các hoạt động được thực hiện trong các vùng có lợi suất tăng, không đổi hay giảm (trong các tình huống đa đầu vào và đa đầu ra). Các kết quả được thảo luận và liên hệ không chỉ với kinh tế học cổ điển (đầu ra đơn) mà còn với các phiên bản kinh tế học hiện đại hơn được xác định với “lý thuyết thị trường có thể tranh đấu.”
Cơ sở dữ liệu gen 16S rRNA (
Một thành phần quan trọng trong việc diễn giải các nghiên cứu cấp hệ thống là suy diễn các con đường sinh học phong phú và các phức hợp protein có trong các tập dữ liệu OMICs. Việc phân tích thành công yêu cầu tích hợp một bộ dữ liệu sinh học hiện có rộng rãi và áp dụng một quy trình phân tích vững chắc để tạo ra các kết quả có thể diễn giải được. Metascape là một cổng thông tin dựa trên web được thiết kế để cung cấp một nguồn tài nguyên chú thích và phân tích danh sách gen toàn diện cho các nhà sinh học thực nghiệm. Về các tính năng thiết kế, Metascape kết hợp sự phong phú chức năng, phân tích互译, chú thích gen và tìm kiếm thành viên để tận dụng hơn 40 cơ sở kiến thức độc lập trong một cổng tích hợp duy nhất. Ngoài ra, nó còn tạo điều kiện cho việc phân tích so sánh các tập dữ liệu qua nhiều thí nghiệm độc lập và chính xác. Metascape cung cấp trải nghiệm người dùng đơn giản hóa một cách đáng kể thông qua giao diện phân tích nhanh một cú nhấp chuột để tạo ra các đầu ra có thể diễn giải được. Tóm lại, Metascape là một công cụ hiệu quả và tối ưu cho các nhà sinh học thực nghiệm để phân tích và diễn giải một cách toàn diện các nghiên cứu dựa trên OMICs trong kỷ nguyên dữ liệu lớn.
Một tập hợp cơ sở mở rộng của các hàm số nguyên tử được biểu diễn dưới dạng các tổ hợp tuyến tính cố định của các hàm Gaussian được trình bày cho hydro và các nguyên tố hàng đầu tiên từ cacbon đến flo. Trong tập này, được mô tả là 4–31 G, mỗi lớp vỏ bên trong được đại diện bởi một hàm cơ sở duy nhất được lấy từ tổng của bốn hàm Gaussian và mỗi quỹ đạo hoá trị được tách thành các phần bên trong và bên ngoài được mô tả bởi ba và một hàm Gaussian, tương ứng. Các hệ số mở rộng và số mũ Gaussian được xác định bằng cách tối thiểu hóa năng lượng đã tính toán tổng thể của trạng thái cơ bản nguyên tử. Cơ sở dữ liệu này sau đó được sử dụng trong các nghiên cứu quỹ đạo phân tử đơn xác định của một nhóm nhỏ phân tử đa nguyên tử. Tối ưu hóa các yếu tố tỷ lệ vỏ hoá trị cho thấy rằng có sự tái chia tỷ lệ đáng kể của các hàm số nguyên tử trong các phân tử, các hiệu ứng lớn nhất được quan sát thấy ở hydro và cacbon. Tuy nhiên, phạm vi tối ưu của các hệ số tỷ lệ cho mỗi nguyên tử là đủ nhỏ để cho phép lựa chọn một bộ tiêu chuẩn phân tử. Việc sử dụng cơ sở chuẩn này cung cấp các hình học cân bằng lý thuyết hợp lý với thí nghiệm.
Chúng tôi mô tả các cải tiến đối với phương pháp của Pritchard và cộng sự để suy diễn cấu trúc dân số từ dữ liệu genotype đa locus. Quan trọng nhất, chúng tôi phát triển các phương pháp cho phép có sự liên kết giữa các loci. Mô hình mới này xem xét các mối tương quan giữa các loci liên kết phát sinh trong các quần thể trộn lẫn (“mất cân bằng liên kết trộn lẫn”). Sự điều chỉnh này có một số lợi thế, cho phép (1) phát hiện các sự kiện trộn lẫn xa hơn vào quá khứ, (2) suy diễn quần thể nguồn gốc của các vùng nhiễm sắc thể, và (3) ước lượng chính xác hơn về sự không chắc chắn thống kê khi sử dụng các loci liên kết. Nó cũng có thể hữu ích cho việc lập bản đồ trộn lẫn. Thêm vào đó, chúng tôi mô tả một mô hình prior mới cho tần số allele trong mỗi quần thể, cho phép xác định các phân chia quần thể tinh tế mà không thể phát hiện được khi sử dụng phương pháp hiện có. Chúng tôi trình bày các kết quả áp dụng các phương pháp mới để nghiên cứu trộn lẫn ở người Mỹ gốc Phi, tái tổ hợp trong Helicobacter pylori, và trôi dạt trong các quần thể Drosophila melanogaster. Các phương pháp này được triển khai trong một chương trình, structure, phiên bản 2.0, có sẵn tại http://pritch.bsd.uchicago.edu.
Chương trình hiệu chỉnh niên đại, CALIB (Stuiver & Reimer 1986), được phát hành lần đầu vào năm 1986 và sau đó được chỉnh sửa vào năm 1987 (phiên bản 2.0 và 2.1), đã được cập nhật. Chương trình năm 1993 (phiên bản 3.0) bao gồm các cải tiến bổ sung và một bộ dữ liệu hiệu chỉnh mới bao phủ gần 22,000 năm cal (≈18,400 năm 14C). Dữ liệu mới này, cũng như các sửa đổi cho bộ dữ liệu đã sử dụng trước đây, được lấy từ nỗ lực hiệu chỉnh thang thời gian kéo dài 6 năm (1986–1992) của một số phòng thí nghiệm.
Một khảo sát dữ liệu trước/sau bài kiểm tra sử dụng bài kiểm tra Chẩn đoán Cơ học Halloun–Hestenes hoặc Đánh giá Khái niệm Lực gần đây hơn được báo cáo cho 62 khóa học vật lý cơ bản với tổng số sinh viên đăng ký N=6542. Một phân tích nhất quán trên các nhóm sinh viên đa dạng tại các trường trung học, cao đẳng và đại học đạt được nếu một đo lường thô về hiệu quả trung bình của một khóa học trong việc thúc đẩy hiểu biết khái niệm được coi là lợi ích chuẩn hóa trung bình 〈g〉. Lợi ích nay được xác định là tỷ lệ giữa lợi ích trung bình thực tế (%〈post〉−%〈pre〉) với lợi ích trung bình tối đa có thể (100−%〈pre〉). Mười bốn khóa học “truyền thống” (T) (N=2084) mà ít hoặc không sử dụng các phương pháp tương tác-engagement (IE) đạt được lợi ích trung bình 〈g〉T-ave=0.23±0.04 (độ lệch chuẩn). Ngược lại, 48 khóa học (N=4458) mà sử dụng đáng kể các phương pháp IE đạt được lợi ích trung bình 〈g〉IE-ave=0.48±0.14 (độ lệch chuẩn), gần hai độ lệch chuẩn của 〈g〉IE-ave vượt trên lợi ích của các khóa học truyền thống. Kết quả cho 30 (N=3259) trong số 62 khóa học trên về bài kiểm tra Cơ học Cơ sở vấn đề của Hestenes–Wells ngụ ý rằng các chiến lược IE nâng cao khả năng giải quyết vấn đề. Kết quả từ các bài kiểm tra khái niệm và giải quyết vấn đề mạnh mẽ gợi ý rằng việc sử dụng phương pháp IE trong lớp học có thể tăng cường hiệu quả của các khóa học cơ học vượt xa so với những gì có được trong thực hành truyền thống.
Một biến thể mới tên là ‘PMF’ trong phân tích yếu tố được mô tả. Giả định rằng
- 1
- 2
- 3
- 4
- 5
- 6
- 10